在本文中,我们提出了Dexter,这是一个端到端系统,以从医疗保健文件中存在的表中提取信息,例如电子健康记录(EHR)和福利解释(EOB)。 Dexter由四个子系统阶段组成:i)表检测ii)表类型分类iii)细胞检测;和iv)细胞含量提取。我们建议使用CDEC-NET体系结构以及用于表检测的非最大程度抑制作用,提出一种基于两阶段的转移学习方法。我们根据图像大小来检测行和列设计一种常规的基于计算机视觉的方法,用于使用参数化内核进行表类型分类和单元格检测。最后,我们使用现有的OCR发动机Tessaract从检测到的单元中提取文本。为了评估我们的系统,我们手动注释了现实世界中医学数据集(称为Meddata)的样本,该样本由各种文档(在外观上)组成,涵盖了不同的表结构,例如,诸如边界,部分边框,无边界或无边界,或彩色桌子。我们在实验上表明,Dexter在注释的现实世界医学数据集上优于市售的Amazon swark和Microsoft Azure形式识别器系统
translated by 谷歌翻译